强化学习

强化学习

实质是make decisions问题，即自动进行决策，并且可以做连续决策。

与监督学习的区别

对比项	监督学习	强化学习
学习信号	给定输入对应的标准答案（标签）	通过奖励/惩罚信号（reward）评估行为好坏
反馈时机	通常即时、每个样本都有标签	可能延迟，需要多步之后才知道某一步决策的价值
数据分布	样本通常假设独立同分布	交互产生数据：行为会改变后续状态与数据分布

典型场景

机器人控制、博弈、推荐/广告的策略优化、自动驾驶中的决策

关联：机器学习算法分类 / 监督学习